- 交叉学科
背景多样,机会均等,算法关键也不过是小小一隅 - 你的心在何方 你的相在何处
2015-06-08
pkg=c('rmarkdown', 'knitr', 'MSG', 'plotrix', 'parallel', 'RMySQL' );
install.packages(pkg)
bdata
数据只有经过合理的分析,使用合适的方法,才可能得到较为符合实际的结论。
然而,事实是,对于无处不在的数据,只要用上一种方法,就能得到一个结论。
下面介绍几个分析角度,描述几个从客观数据到主观推断的风险。
- 换个视角(圈圈图)
- 相关性假象
- 一步到位的分析
- 辛普森悖论
par(mfrow = c(1, 2), ann = FALSE) plot(BinormCircle)
par(mfrow = c(1, 2), ann = FALSE) plot(BinormCircle) smoothScatter(BinormCircle)
一个简单的方法,改变下观察视角:点的大小+放大
par(mfrow = c(1, 1)) plot(BinormCircle,pch=19,cex=0.01)
plot(身高~体重,d2)
plot(身高~体重,d2);text(d2[,2],d2[,3],d2[,1]);
# 上证综指
getSymbols("^SSEC");SSEC=data.frame(SSEC)
## [1] "SSEC"
SSEC$t=rownames(SSEC);tail(SSEC)
## SSEC.Open SSEC.High SSEC.Low SSEC.Close SSEC.Volume ## 2016-12-02 3270.121 3279.714 3235.277 3243.843 259600 ## 2016-12-05 3203.784 3219.518 3194.879 3204.709 223000 ## 2016-12-06 3202.029 3215.311 3196.525 3199.647 157600 ## 2016-12-07 3198.475 3222.428 3189.485 3222.242 169100 ## 2016-12-08 3225.550 3228.122 3211.471 3215.366 170700 ## 2016-12-09 3209.340 3244.801 3207.043 3232.883 204000 ## SSEC.Adjusted t ## 2016-12-02 3243.843 2016-12-02 ## 2016-12-05 3204.709 2016-12-05 ## 2016-12-06 3199.647 2016-12-06 ## 2016-12-07 3222.242 2016-12-07 ## 2016-12-08 3215.366 2016-12-08 ## 2016-12-09 3232.883 2016-12-09
n=nrow(SSEC);x=1:n;y1=SSEC$SSEC.Volum;y2=SSEC$SSEC.Close;
twoord.plot(x,y1,x,y2,xlim=c(0,n),lylim=c(0,300000),rylim=c(2000,6000), lcol=4,rcol=2,xlab="name",ylab="volume",rylab="close",type=c("bar","b"),xticklab=SSEC$t,halfwidth=0.2)
plot(身高~体重,d2,axes=F,col="blue",pch=19,type='b',cex=2,xlab='',ylab='')
plot(x, y) abline(lm(y ~ x), col = "red")
plot(x, y, pch = z, col = rainbow(5)[z + 1]) for (i in z) abline(lm(y ~ x, subset = z == i), col = "darkgray")
+——-+——+——+
| 统计 | 有效| 无效 |
+——-+——+——+
| 新药 | 80 | 120 |
+——-+——+——+
| 安慰剂| 100 | 100 |
+——-+——+——+
RD = 80/200-100/200= -0.1
| 性别 | 男性 | 女性 | | ---- | -- | -- | -- | -- | | |有效|无效|有效|无效| | ---- | -- | -- | -- | -- | | 新药 | 35 |15 |45 |105 | RD男 = 35/50-90/150= 0.1 |安慰剂| 90 |60 |10 |40 | RD女 = 45/150-10/50= 0.1
最常用的图形
par(mfrow = c(1, 3)); hist(rnorm(100),col='blue');plot(rnorm(20),col='red'); plot(seq(1,10)+runif(10,min=0,max=15),type='b',col='green')
复杂的图形
复杂的图形-艺术与设计,京东数据汇
Gartner:Magic Quadrant for… by gartner Analytics
Gartner:Magic Quadrant for… by gartner BI
excel,
SPSS,
SAS,
matlab,
R,
weka,
python,
sql,hadoop,storm,spark,
… …
工具流
因地制宜,发挥所长。
浩瀚如海的算法
lazhuai
[1]:谢益辉,2010,"统计图形和模拟视角下的模型理论解析".
[2]:达莱尔,廖颖林译,2002,《统计陷阱》.
[3]:耿直,2009,"如何从生命科学研究数据中挖掘因果关系和评价因果作用?"
[4]:刘德寰,李雪莲,2013,"大数据的风险和现存问题"
[5]:吴恩达,Spark Summit 2016,"AI超能力"
[6]:Kumar Ashish,2016,"Deeplearning&XgBoost:Winning it hands down", http://www.datasciencecentral.com/profiles/blogs/deep-learning-xgboost-winning-it-hands-down
[7]:Manuel Fernández-Delgado,Eva Cernadas,etc,2014,"Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?",http://jmlr.org/papers/v15/delgado14a.html